近年来在自动编码器(AE)框架中自动化频道编码器和解码器的设计越来越感兴趣,以便在噪声通道上可靠地传输数据。在本文中,我们为此目的展示了设计AES的新框架。特别地,我们介绍了AE框架,即Listae,其中解码器网络输出解码的消息字候选列表。假设在解码器的输出中可在解码器的输出处获得Genie,并且提出了特定损耗功能,以优化Genie-Aided(GA)-Listae的性能。 Listae是普通AE框架,可以与任何网络架构一起使用。我们提出了一种特定的端到端网络架构,其在一系列组件代码上解码接收的单词,其速率降低。基于所提出的架构的Listae称为增量冗余列表(IR-Listae),在GA解码下的低块误差速率下通过1 dB提高了最先进的AE性能。然后,我们使用循环冗余检查(CRC)代码来替换解码器的Genie,与GA-Listae相比,使CRC-Aided(CA)-Listae具有可忽略的性能损失。由于将CRC附加到消息字,CA-Listae以略微降低的价格显示有意义的编码增益。
translated by 谷歌翻译
近年来,已经进行了重要的研究活动,可以通过深度学习自动化渠道编码器和解码器的设计。由于通道编码的维度挑战,因此通过深度学习技术设计和训练相对较大的神经通道代码非常复杂。因此,文献中的大多数结果仅限于相对较短的代码,其信息位少于100个。在本文中,我们构建了Productaes,这是一个有效的深度学习驱动(编码器,解码器)对的家族,旨在以可管理的培训复杂性来培训相对较大的通道代码(编码器和解码器)。我们基于经典产品代码的想法,并建议使用较小的代码组件构建大型神经代码。更具体地说,我们没有直接培训编码器和解码器的大型神经代码$ k $ and blocklength $ n $,而是提供了一个框架,需要培训对代码参数的神经编码器和解码器$(n_1,k_1)$和$(n_2,k_2)$,这样$ n_1 n_2 = n $和$ k_1 k_2 = k $。我们的培训结果表明,对于参数守则$(225,100)$和中等长度参数码$(441,196)$,与连续的极性码相比,参数码(225,100)$(225,100)$(225,100)$(225,100)$(225,100)$(225,100)$(225,100)$(225,100)$(225,100)$,与连续的极地码相比取消(SC)解码器。此外,我们的结果表明,涡轮自动编码器(涡轮增压器)和最先进的古典代码有意义。这是设计产品自动编码器和培训大型频道代码的开创性工作的第一项工作。
translated by 谷歌翻译
整个幻灯片图像(WSI)分类是诊断和治疗疾病的基本任务;但是,精确标签的策划是耗时的,并限制了完全监督的方法的应用。为了解决这个问题,多个实例学习(MIL)是一种流行的方法,它仅使用幻灯片级标签作为一个弱监督的学习任务。尽管当前的MIL方法将注意机制的变体应用于具有更强模型的重量实例特征,但注意力不足是对数据分布的属性的不足。在这项工作中,我们建议通过使用Max-Instance(关键)功能的统计数据来重新校准WSI袋(实例)的分布。我们假设在二进制MIL中,正面袋的特征幅度大于负面,因此我们可以强制执行该模型,以最大程度地利用公制特征损失的袋子之间的差异,该袋子将正面袋模型为未分布。为了实现这一目标,与使用单批训练模式的现有MIL方法不同,我们建议平衡批次采样以有效地使用功能丢失,即同时(+/-)袋子。此外,我们采用编码模块(PEM)的位置来建模空间/形态信息,并通过变压器编码器通过多头自我注意(PSMA)进行汇总。现有基准数据集的实验结果表明我们的方法是有效的,并且对最先进的MIL方法有所改善。
translated by 谷歌翻译
从3D点云中对可遍历区域和感兴趣的对象的感知是自主导航中的关键任务之一。一辆地面车辆需要寻找可以通过车轮探索的可遍历的地形。然后,为了做出安全的导航决定,必须跟踪位于这些地形上的物体的分割。但是,过度分割和分割不足可能会对此类导航决策产生负面影响。为此,我们提出了旅行,该行程使用3D点云的图表表示可遍历的地面检测和对象聚类。为了将可穿越的接地段分割,将点云编码为图形结构,即三个格里德字段,该场将每个三个格里德视为节点。然后,通过检查连接节点的边缘的局部凸度和凹度来搜索和重新定义可遍历的区域。另一方面,我们的地上对象分割通过表示球形预测空间中的一组水平相邻的3D点作为节点和节点之间的垂直/水平关系,以使用图形结构。充分利用节点边缘结构,上面的分割可确保实时操作并减轻过度分割。通过使用模拟,城市场景和我们自己的数据集的实验,我们已经证明,根据常规指标,我们提出的遍历地面分割算法优于其他最新方法,并且我们新提出的评估指标对于评估是有意义的地上细分。我们将在https://github.com/url-kaist/travel上向公开提供代码和自己的数据集。
translated by 谷歌翻译
Stylegan最近的成功表明,预训练的Stylegan潜在空间对现实的视频生成很有用。但是,由于难以确定stylegan潜在空间的方向和幅度,因此视频中产生的运动通常在语义上没有意义。在本文中,我们提出了一个框架来通过利用多模式(声音图像文本)嵌入空间来生成现实视频。由于声音提供了场景的时间上下文,因此我们的框架学会了生成与声音一致的视频。首先,我们的声音反演模块将音频直接映射到Stylegan潜在空间中。然后,我们结合了基于夹子的多模式嵌入空间,以进一步提供视听关系。最后,提出的帧发电机学会在潜在空间中找到轨迹,该空间与相应的声音相干,并以层次结构方式生成视频。我们为声音引导的视频生成任务提供新的高分辨率景观视频数据集(视听对)。实验表明,我们的模型在视频质量方面优于最新方法。我们进一步显示了几种应用程序,包括图像和视频编辑,以验证我们方法的有效性。
translated by 谷歌翻译
大多数最新的说话者验证架构都采用了多尺度处理和频道注意机制。这些模型的卷积层通常具有固定的内核大小,例如3或5。在本研究中,我们进一步为这一研究采用了选择性核心注意(SKA)机制。SKA机制允许每个卷积层以数据驱动的方式自适应地选择内核大小。它基于利用频率和通道域的注意机制。我们首先将现有的SKA模块应用于我们的基线。然后,我们提出了两个SKA变体,其中第一个变体在ECAPA-TDNN模型的前面应用,另一个变体与RES2NET骨干块结合使用。通过广泛的实验,我们证明了我们提出的两个SKA变体始终提高性能,并在三个不同的评估方案上进行测试时是互补的。
translated by 谷歌翻译
局灶性肝脏病变(FLLS)的计算机辅助诊断有助于改善工作流程并实现正确的诊断; FLL检测是如此计算机辅助诊断的第一步。尽管近期基于深度学习的方法在检测到FLLS方面取得了成功,但目前的方法对于评估未对准的多相数据来说是不够稳健的。通过在特征空间中引入注意引导的多相对准,本研究提出了一种用于检测来自多相计算机断层扫描(CT)图像的FLL的完全自动化的端到端学习框架。由于其完全基于学习的方法,我们的方法是对错位的多相图像的强大,这降低了模型对注册质量的敏感性,并且可以在临床实践中独立地部署模型。具有280名患者的大型数据集的评估证实,我们的方法优于先前的最先进的方法,并显着降低了使用未对准的多相CT图像检测FLL的性能劣化。所提出的方法的稳健性可以增强深学习的计算机辅助检测系统的临床采用。
translated by 谷歌翻译
最近,隐写术领域经历了基于深度学习(DL)的快速发展。基于DL的隐写术在封面图像的所有可用位分发了秘密信息,从而在使用传统的隐分方法来检测,提取或删除隐藏秘密图像的困难。但是,我们提出的框架是第一个有效禁用使用基于DL的隐写术的秘密通信和事务。我们提出了一种基于DL的隐分技术,其通过恢复原始图像的分布而有效地去除秘密图像。我们通过使用深神经网络利用复杂的像素分布和图像的边缘分布来制定问题并解决它。根据给定的信息,我们在像素级别删除隐藏的秘密信息。我们通过使用三个公共基准与传统的隐草方法进行比较来评估我们的技术。由于基于DL的隐写的解码方法是近似的(损失)并且与传统隐写术的解码方法不同,我们还引入了一种称为破坏率(DT)的新的定量度量。实验结果表明,在解码速率和DT中表现出10-20%的性能提高。
translated by 谷歌翻译
According to the rapid development of drone technologies, drones are widely used in many applications including military domains. In this paper, a novel situation-aware DRL- based autonomous nonlinear drone mobility control algorithm in cyber-physical loitering munition applications. On the battlefield, the design of DRL-based autonomous control algorithm is not straightforward because real-world data gathering is generally not available. Therefore, the approach in this paper is that cyber-physical virtual environment is constructed with Unity environment. Based on the virtual cyber-physical battlefield scenarios, a DRL-based automated nonlinear drone mobility control algorithm can be designed, evaluated, and visualized. Moreover, many obstacles exist which is harmful for linear trajectory control in real-world battlefield scenarios. Thus, our proposed autonomous nonlinear drone mobility control algorithm utilizes situation-aware components those are implemented with a Raycast function in Unity virtual scenarios. Based on the gathered situation-aware information, the drone can autonomously and nonlinearly adjust its trajectory during flight. Therefore, this approach is obviously beneficial for avoiding obstacles in obstacle-deployed battlefields. Our visualization-based performance evaluation shows that the proposed algorithm is superior from the other linear mobility control algorithms.
translated by 谷歌翻译
In robotics and computer vision communities, extensive studies have been widely conducted regarding surveillance tasks, including human detection, tracking, and motion recognition with a camera. Additionally, deep learning algorithms are widely utilized in the aforementioned tasks as in other computer vision tasks. Existing public datasets are insufficient to develop learning-based methods that handle various surveillance for outdoor and extreme situations such as harsh weather and low illuminance conditions. Therefore, we introduce a new large-scale outdoor surveillance dataset named eXtremely large-scale Multi-modAl Sensor dataset (X-MAS) containing more than 500,000 image pairs and the first-person view data annotated by well-trained annotators. Moreover, a single pair contains multi-modal data (e.g. an IR image, an RGB image, a thermal image, a depth image, and a LiDAR scan). This is the first large-scale first-person view outdoor multi-modal dataset focusing on surveillance tasks to the best of our knowledge. We present an overview of the proposed dataset with statistics and present methods of exploiting our dataset with deep learning-based algorithms. The latest information on the dataset and our study are available at https://github.com/lge-robot-navi, and the dataset will be available for download through a server.
translated by 谷歌翻译